搜索资源列表
CorpusWordParser
- 语料分词和词性标注软件。 软件只支持打开文本格式(.txt)的文件,其他类型文件需先另存为文本文件格式后再处理。 软件可以自动识别、处理文本文件的不同字符编码(GB或Unicode等)。(Word segmentation and part of speech tagging software. Software only supports files that open text format (.Txt), and other types of files need to be sav
jieba
- 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。(Accurate mode, trying to cut the sentence up to the most accurate, suitable for text analysis. The whole mode can scan all the words tha
kmeans
- jieba分词将中文文本进行分词处理,将分词后的结果使用word2vec转化成词向量,使用kmeans将中文文本进行聚类(Jieba participle segmenting Chinese text, transforming the result of word segmentation into word vector using word2vec, and clustering Chinese text using kmeans.)
垃圾短信分类
- 基于文本内容的垃圾短信识别,对数据进行了数据清洗,分词等,进行 了模型训练及评价(Based on the text content of spam short message recognition, data cleaning, segmentation, model training and evaluation are carried out)